Recherche d'information dans un corpus bruité (OCR)
نویسندگان
چکیده
This paper evaluates the retrieval effectiveness degradation when facing with noisy text corpus. With the use of a test-collection having the clean text, another version with around 5% error rate in recognition and a third with 20% error rate, we have evaluated six IR models based on three text representations (bag-of-words, n-grams, trunc-n) as well as three stemmers. Using the mean reciprocal rank as performance measure, we show that the average retrieval effectiveness degradation is around -17% when dealing with an error rate of 5%. This average decrease is around -46% when facing with an error rate of 20%. The representation by 4-grams tends to offer the best retrieval when searching with noisy text. Finally, we are not able to obtain clear conclusion about the impact of different stemming strategies or the use of blind-query expansion. MOTS-CLÉS : Recherche d'information dans des documents bruités (OCR), évaluation, TREC.
منابع مشابه
Utilisation des ressources externes pour la reformulation des requêtes dans un système de recherche d'information
Dans un Système de Recherche d’Information (SRI), les démarches pour la reformulation de la requête sont nombreuses. Elles peuvent être classées selon les ressources utilisées en trois grandes approches : l’utilisation des ressources externes, l’analyse globale et l’analyse locale. Dans ce contexte et dans le cadre des SRI pour les textes Arabes, nous nous intéressons à l’évaluation des perform...
متن کاملExpansion de requêtes pour la recherche d'information multilingue
1. Recherche d'information multilingue : approche par traduction des contenus La quantité d'information en ligne croît très rapidement, ainsi que le nombre de langues dans lesquelles ces contenus sont disponibles. En revanche, la complexité des requêtes reste limitée (2 à 3 mots en moyenne). Des traitements spécifiques s'avèrent donc nécessaires pour préciser le sens de certaines requêtes, ou a...
متن کاملModèle de recherche contextuelle orientée contenu pour un corpus de documents XML
RÉSUMÉ. Dans le cadre de corpus de documents XML, la recherche par mots-clés reste le moyen le plus utilisé pour un utilisateur dont le besoin d'information est vague, ou encore parce qu'il ne connaît pas précisément la structure des documents. Dans cet article nous présentons notre approche de recherche de nœuds pertinents à une requête orientée contenu "Content Only" composée de simples mots ...
متن کاملOntologies pour l'aide à l'exploration d'une collection de documents
Dans cet article nous présentons un système à base d'ontologies pour l'aide à une activité de recherche, d'analyse et d'exploration de corpus documentaires relatifs à un domaine scientifique. Les ontologies utilisées visent à représenter un domaine à la fois à travers le vocabulaire de ce domaine, mais également au travers de l'ensemble des méta-données qui peuvent être utiles dans des activité...
متن کاملScienQuest: a Treebank Exploitation Tool for non NLP-Specialists
The exploitation of syntactically analysed corpora (or treebanks) by non NLPspecialist is not a trivial problem. If the NLP community wants to make publicly available corpora with complex annotations, it is imperative to develop simple interfaces capable of handling advanced queries. In this paper, we present query methods developed during the Scientext project and intended for the general pub...
متن کامل